Feature/spark dataframes #646

novatechflow · 2025-12-15T15:05:40Z

Summary

Add Spark Dataset/DataFrame plumbing: Parquet source/sink flag, channel conversions, optimizer cost hints.
Document how to build dataset-backed pipelines (README.md, guides/spark-datasets.md).

Next steps / follow-ups

ML4All pipelines still emit/consume raw double[]/Double RDDs. We should extend them to use DatasetChannels once schema handling is in place.
Text/Object sources currently produce RDD channels. A Record-backed variant (or a conversion helper) would allow dataset output without extra user code.

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/DataQuanta.scala

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/JavaPlanBuilder.scala

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/PlanBuilder.scala

…t the unified interface.

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/JavaPlanBuilder.scala

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/PlanBuilder.scala

…solves the CR

novatechflow · 2026-01-07T07:30:10Z

Fixed the overload issue. Java does not see the Scale overload. Build run through now.

novatechflow · 2026-01-07T07:47:23Z

This is a likely Scala version mismatch. scala.annotation.JvmOverloads isn’t available in the Scala version used by CI (likely 2.11), but my local build uses a newer Scala, so it compiled locally with Scala version 2.12.17 - it's a bit surprising since it runs locally.

mvn -q -Dexpression=scala.version help:evaluate -DforceStdout
2.12.17%

mvn -pl wayang-api/wayang-api-scala-java -am -DskipTests compile
[INFO] BUILD SUCCESS

novatechflow added 3 commits December 15, 2025 15:44

Spark DataFrames support / Optimizer load profiles

fabc628

Update readme / add documentation

5f42f3c

add license header

599508d

novatechflow requested a review from juripetersen December 15, 2025 15:06

novatechflow mentioned this pull request Dec 15, 2025

Enumeration is non-deterministic #634

Open

juripetersen reviewed Dec 16, 2025

View reviewed changes

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/DataQuanta.scala Outdated Show resolved Hide resolved

juripetersen reviewed Dec 16, 2025

View reviewed changes

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/JavaPlanBuilder.scala Outdated Show resolved Hide resolved

juripetersen reviewed Dec 16, 2025

View reviewed changes

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/PlanBuilder.scala Outdated Show resolved Hide resolved

Add Dataset flag to read/write Parquet APIs and update docs to reflec…

7b5d3b1

…t the unified interface.

juripetersen reviewed Jan 5, 2026

View reviewed changes

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/JavaPlanBuilder.scala Show resolved Hide resolved

juripetersen reviewed Jan 5, 2026

View reviewed changes

wayang-api/wayang-api-scala-java/src/main/scala/org/apache/wayang/api/PlanBuilder.scala Show resolved Hide resolved

Unify parquet defaults in JavaPlanBuilder [INFO] BUILD SUCCESS, this …

a738c3f

…solves the CR

juripetersen previously approved these changes Jan 7, 2026

View reviewed changes

Add Java overloads for readParquet [INFO] BUILD SUCCESS

fbc4da0

novatechflow dismissed juripetersen’s stale review via fbc4da0 January 7, 2026 07:28

juripetersen previously approved these changes Jan 7, 2026

View reviewed changes

Import JvmOverloads for readParquet [INFO] BUILD SUCCESS

0af3ec8

novatechflow dismissed juripetersen’s stale review via 0af3ec8 January 7, 2026 07:35

Restore Java parquet overload [INFO] BUILD SUCCESS

67f5dcc

Fix parquet overload defaults [INFO] BUILD SUCCESS

a473152

juripetersen approved these changes Jan 7, 2026

View reviewed changes

novatechflow merged commit e6ce5a9 into apache:main Jan 7, 2026
4 checks passed

novatechflow deleted the feature/spark-dataframes branch January 7, 2026 08:52

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Feature/spark dataframes #646

Feature/spark dataframes #646

Uh oh!

novatechflow commented Dec 15, 2025

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

novatechflow commented Jan 7, 2026

Uh oh!

novatechflow commented Jan 7, 2026 •

edited

Loading

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Feature/spark dataframes #646

Feature/spark dataframes #646

Uh oh!

Conversation

novatechflow commented Dec 15, 2025

Summary

Next steps / follow-ups

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

novatechflow commented Jan 7, 2026

Uh oh!

novatechflow commented Jan 7, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

novatechflow commented Jan 7, 2026 •

edited

Loading